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摘要 : 在 数据 存储 与 传输 中 ， 文 件 压 缩 是 减少 数据 量 的 常用 技术 ， 可 减少 数据 存储 空间 和 
传输 时 间 及 带宽 。 然 而 ， 不 同类 型 文件 格式 的 压缩 性 能 存在 显著 差异 ， 收 益 也 不 同 。 本 文 收 
集 22 种 文件 格式 ， 约 178GB 数据 ， 采 用 Zlib 算法 进行 压缩 实验 来 比较 性 能 ， 以 研究 不 同 
文件 类 型 的 压缩 收益 。 实 验 结果 发 现 ， 某 些 文件 类 型 的 压缩 效果 较 差 ,压缩 后 文件 大 小 几乎 
不 变 ， 压 缩 时 间 长 ， 收 益 较 低 : 另 一 部 分 文件 类 型 经 过 压缩 后 文件 大 小 明显 减 小 ,压缩 时 间 
也 较 短 ， 可 以 有 效 降 低 数据 量 。 基 于 上 述 实 验 结果 ， 本 文 后 续 将 在 数据 存储 和 传输 中 针对 文 
件 类 型 有 选择 性 的 通过 压缩 来 减少 数据 量 ， 以 获得 最 大 压缩 收益 。 
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Abstract: In data storage and transmission, file compression is a common technique 
for reducing the volume of data, reducing data storage space and transmission time 
and bandwidth. However, there are significant differences in the compression 
performance of different types of file formats, and the benefits vary. In this paper, 
22 file formats with approximately 178GB of data were collected and the Zlib 
algorithm was used for compression experiments to compare performance in order to 
investigate the compression gains of different file types. The experimental results 
show that some file types are poorly compressed, with almost constant file size and 
long compression time, resulting in lower gains; some other file types are 
significantly reduced in file size and compression time after compression, which 
can effectively reduce the data volume. Based on the above experimental results, 
this paper will then selectively reduce the data volume by compression in data 
storage and transmission for the file types in order to obtain the maximum 
compression yield. 
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1 引言 


随 着 计算 机 技术 在 各 领域 的 广泛 应 用 , 产生 了 大 量 需 要 存储 、 计 算 和 传输 的 
数据 ， 数 据 规 模 逐 年 呈 爆 炸 式 增长 ， 表 明 已 经 踏 入 海量 数据 时 代 [1] 。 这 些 海量 
数据 都 需要 快速 迁移 到 计算 和 存储 设备 , 导致 数据 传输 与 业务 需求 之 间 的 矛盾 日 
益 尖 锐 [6] ， 从 带宽 需求 到 传输 完整 性 ， 均 面临 重大 挑战 [5] 。 

提高 海量 数据 传输 性 能 的 有 效 办 法 之 一 是 降低 数据 规模 , 即 通过 数据 压缩 传 
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输 来 减少 网 络 负载 和 传输 延迟 。 通 过 压缩 数据 大 小 , 将 数据 转换 成 更 紧凑 的 格式 ， 
减少 有 效 传输 数据 量 ， 同 时 也 可 减少 传输 所 需 的 时 间 和 存储 空间 [4 ， 从 而 降低 
传输 延迟 和 成 本 ， 提 升 数据 传输 速度 [2] 。 但 是 ， 不 同文 件 格式 的 可 压缩 性 存在 
较 大 差异 , 某 些 文件 格式 具有 高 度 可 压缩 的 结构 , 例如 文本 文件 中 的 重复 字符 可 
以 被 充分 利用 以 实现 更 好 的 压缩 效果 。 相 比 之 下 ,图 像 文 件 的 相 邻 像素 通常 相似 
且 存在 元 余 , 但 对 已 经 压缩 过 的 图 像 文件 再 次 压缩 的 效果 有 限 。 音 频 文件 通常 采 
用 有 损 压缩 算法 ， 因 此 对 其 进行 进一步 的 压缩 效果 较 差 。 因 此 ， 为 了 研究 数据 传 
输 中 不 同文 件 格式 的 压缩 收益 ， 提 高 数据 存储 和 传输 性 能 。 本 文 在 22 种 不 同文 
件 格式 上 进行 了 压缩 实验 ， 以 研究 不 同文 件 格式 的 压缩 收益 ， 为 海量 数据 传输 提 
供 参 考 依据 。 

本 文 的 贡献 如 下 : 

1. 收集 了 22 种 文件 格式 , 包括 MP4, MP3. BMP. HDF5 等 , 共计 178GB; 

2. 采用 zlib 压缩 算法 研究 了 上 述 数 据 集 ; 

3， 实 验 中 发 现 : 一 些 文件 类 型 ， 如 音频 、 视 频 和 图 像 等 ， 其 压缩 效果 相对 
较 差 ， 压缩 时 间 较 长 ， 从 而 导致 压缩 带 来 的 收益 相对 较 低 。 这 是 由 于 这 些 文件 类 
型 通常 具有 高 维度 的 数据 结构 和 复杂 的 信息 内 容 , 使 得 在 压缩 过 程 中 难以 实现 较 
高 的 压缩 率 。 然 而 ， 并 非 所 有 文件 类 型 都 面临 相同 的 问题 。 对 于 一 些 其 他 类 型 的 
文件 ， 如 文本 、 文 档 等 ， 经 过 压缩 后 文件 大 小 明显 减 小 ,压缩 时 间 也 较 短 ， 可 以 
有 效 降低 数据 量 。 

本 文 后 续 的 章节 结构 如 下 : 

l. 第 2 节 描 述 了 有 关 文 件 压 缩 的 相关 工作 ; 

第 3 节 描 述 了 实验 数据 集 文件 来 源 、 压 缩 性 能 指标 和 实验 方法 ; 
第 4 节 描 述 实验 环境 和 工具 ; 

第 5 节 对 实验 结果 进行 图 表 分 析 ; 

5. 第 6 节 进 行 总 结 和 展望 。 


2 相关 工作 


文件 压缩 是 重要 的 数据 处 理 技术 ,通过 减 小 文件 的 存储 大 小 ， 降 低 磁盘 空间 
占用 ， 提 高 存储 效率 和 传输 速度 。 压 缩 算法 可 分 为 无 损 压 缩 和 有 损 压 缩 ， 前 者 完 
全 恢复 原始 文件 , 后 者 在 一 定 程度 上 损失 信息 以 获得 更 高 的 压缩 率 。 多 媒体 信息 
常 采用 有 损 压 缩 ， 文 本 文件 需要 完整 性 的 文件 则 采用 无 损 压 缩 算法 。Gzip[17] 是 
广泛 使 用 的 压缩 程序 ， 可 用 于 压缩 大 的 、 较 少 使 用 的 文件 以 节省 磁盘 空间 ， 其 压 
缩 比 率 在 3 到 10 倍 左右 ， 可 显著 减少 服务 器 的 网 络 带宽 消耗 。bzip2[18] 采 用 
Burrows-Wheeler 块 排序 文本 压缩 算法 和 Huffman 编码 方式 ， 压 缩 率 通常 优 于 基 
T LZTULZTS 的 压缩 软件 ， 可 将 文件 压缩 至 10% 至 15% 以 内 。Lzma[7] 是 经 过 改 
良和 优化 的 Deflate 和 LZ77 算法 ,采用 类 似 于 LZ77 的 字典 编码 机 制 ， 在 一 般 情 
况 下 具有 比 bzip2 更 高 的 压缩 率 。Zlib 库 [19] 提 供 了 高 压缩 比 和 无 损 压 缩 功能 ， 
使 用 基于 滑动 窗口 机 制 的 DEFLATE 算法 ， 以 字 节 为 单位 处 理 数 据 ， 通 过 替换 字 
符 串 来 实现 压缩 , 在 多 个 领域 如 中 文 检 索 、 数 据 通 讯 和 数据 采集 等 中 广泛 应 用 [3]。 

在 应 用 中 , 李 明 等 人 采用 基于 信和 号 稀疏 表示 的 无 损 压 缩 传输 算法 ,提升 了 单 
位 时 间 内 的 上 传 信息 量 [40] 。 王 巨 龙 等 人 利用 Steim2 压缩 算法 和 FTP 通信 协议 
实现 了 实时 数据 压缩 和 传输 ， 显 著 提 高 了 数据 传输 效率 [41] 。 杨 敬 锋 等 人 提出 了 
基于 改进 Huffman 编码 技术 的 数据 压缩 方法 ， 实 现 了 数据 的 压缩 、 传 输 、 解 析 和 
解压 L43] 。 绢 冲 等 人 提出 了 基于 节点 相似 性 分 簇 的 压缩 方案 “SSCDCT)， 通 过 
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聚集 相似 节点 和 压缩 算法 减少 了 数据 传输 量 和 能 耗 ， 延 长 了 网 络 寿 命 L44] 。 马 兴 
明 等 人 提出 了 基于 状态 估计 的 海量 多 元 异 构 和 ?能 电网 数据 压缩 存储 方法 , 解决 了 
压缩 误差 大 和 运行 时 间 长 的 问题 [45] 。 王 稚 等 人 提出 了 一 种 基于 分 布 式 压缩 感知 
和 边缘 计算 的 电能 质量 数据 压缩 存储 方法 , 解决 了 电能 质量 数据 和 谐 波 污染 划分 
困难 的 问题 ， 实 现 了 高 精度 压缩 和 节省 存储 空间 [46] 。 

可 见 ， 在 海量 数据 存储 和 传输 领域 ， 压 缩 技 术 具 有 显著 的 效益 。 然 而 ， 对 于 
不 同 格式 的 海量 文件 ， 其 压缩 效益 尚未 经 过 系统 的 研究 和 评估 。 因 此 ， 本 实验 的 
Se os un au 
效益 ， 以 实现 后 续 存 储 和 传输 过 程 的 优化 。 通 过 本 文 的 研究 成 果 ， 将 为 数据 管理 
和 传输 技术 领域 提供 有 价值 的 见解 和 指导 。 


3 方法 

3.1 文件 数据 集 选 择 和 准备 
本 实验 使 用 了 多 个 数据 集 来 形成 不 同 格式 的 数据 集 ， 数 据 来 源 如 下 : 
1. 


视频 格式 MP4， 来 自 KAGGLE 网 站 的 Kinetics dataset 数据 集 。 
2， 视 频 格 式 AVI、MKV、WEBM， 通 过 “格式 工厂 1” 在 Kinetics dataset 


基础 上 扩 增 。 
3， 音 频 格 式 MP3， 来 自 UCI 网 站 的 数据 集 FMA:A Dataset For Music 
Analysis Data Set. 


4. 音频 格 式 FLAC、WAV、WMA， 通 过 格式 工厂 转换 自 数据 集 FMA: A 
Dataset For Music Analysis DataSet. 

5. 图 像 格 式 BMP, XA KAGGLE 网 站 的 Alphabet+Numbers 。 

6. 图 像 格 式 GIF， 来 自 KAGGLE 网 站 的 Synthea Dataset Jsons - HER. 

7. 图 像 格式 IPG, 3 A CVPR2015 论文 A Large-Scale CarDataset for 

Fine-Grained Categorization and Verification 的 数据 集 。 

8. 图 像 格 式 PNG, X% B KAGGLE 网 站 的 数据 集 RSNA BreastCancer 

Detection - 512x512 pngs 

9. 图 像 格式 TE， 通过 格式 工厂 转换 自 RSNA BreastCancer Detection - 
512x512 pngs 。 

10. 文档 格式 DOCX、XLS、XML 数据 集 为 自 采 集 。 

11. 文档 格式 PDF， 通 过 格式 工厂 转换 自 自 采 的 DOCX 数据 集 。 

12. 文档 格式 TXT, 来 自 KAGGLE 网 站 数据 集 Text Classification on Emails。 

13. 文档 格式 JSON， 来 自 KAGGLE 网 站 数据 集 Various Pokemon Image 


Dataset. 
实验 数据 集 文 件 如 表 1 所 示 : 
de 1 实验 数据 集 文 件 
数据 集 名 称 文件 格式 文件 类 型 

转自 Kinetics dataset 视频 AVI 
转自 Kinetics dataset 视频 MKV 
Kinetics dataset[10] 视频 MP4 
转自 Kinetics dataset 视频 WEBM 


1 格式 工厂 -免费 多 功能 的 多 媒体 文件 转换 工具 (formatfactory.org) 


转自 FMA 音频 FLAC 
FMA: A Dataset For Music Analysis Data Set[11] 音频 MP3 
转自 FMA 音频 WAV 
转自 FMA 音频 WMA 
Metal Surface Defects Dataset[15] 74 BMP 
Synthea Dataset Jsons - EHR[12] A GIF 
A Large-Scale Car Dataset for Fine-Grained Categorization 74 JPG 
and Verification. (CVPR)[14] 
RSNA Breast Cancer Detection - 512x512 pngs[9] 74 PNG 
转自 A Large-Scale Car Dataset for Fine PA TIF 
转自 DOCX 文档 PDF 
EK 文档 DOCX 
自 采 文档 XLS 
AK 文本 XML 
Text Classification on Emails[13] 文本 TXT 
Various Pokemon Image Dataset[8] JSON 
AK 二 进 制 BIN 


在 实验 中 ， 使 用 自 采 数据 集 和 公开 数据 集 共 91GB， 对 不 同文 件 格式 进行 了 
压缩 效果 的 评估 。 这 些 公开 数据 集 涵 盖 了 20 种 文件 类 型 ， 包 括 文本 文件 、 图 像 
文件 、 音 频 文件 和 视频 文件 等 。 

3.2 压缩 性 能 评估 指标 

令 压 缩 前 的 文件 大 小 为 ,压缩 后 的 文件 大 小 为 B， 压 缩 率 为 K， 压 缩 时 间 为 
T， 解 压 时 间 为 T^, 则 压缩 率 指 标 可 表示 为 : 

K= (1-B/a) *100% 

- 压缩 率 : 表 示 压 缩减 少 的 数据 比例 ， 计 算 每 个 文件 类 型 的 平均 压缩 率 ， 并 
比较 不 同文 件 类 型 之 间 的 压缩 率 差 异 。K 的 值 越 大 ， 表 示 压 缩 效果 越 好 。 

- 压缩 时 间 :表示 原始 文件 压缩 为 压缩 文件 所 花费 的 时 间 ， 以 毫秒 为 单位 。 
计算 每 个 文件 类 型 的 平均 压缩 时 间 ， 并 比较 不 同文 件 类 型 之 间 的 压缩 时 间 差 异 。 
T 的 值 越 小 ， 说 明 压 缩 越 快 。 

« 解压 时 间 :表示 压缩 文件 被 解压 缩 为 原始 文件 所 花费 的 时 间 ， 以 毫秒 为 单 
位 。 计 算 每 个 文件 类 型 的 平均 解压 缩 时 间 , 并 比较 不 同文 件 类 型 之 间 的 解压 缩 时 
间 差 异 。T’ 的 值 越 小 ， 说 明 解 压 越 快 。 

3.3 压缩 方法 

在 选择 适合 的 文件 压缩 算法 时 ， 需 要 根据 需求 和 场景 进行 比较 。Zlib 库 以 其 
高 压缩 比 和 无 损 压 缩 的 优势 , 通过 DEFLATE 算法 实现 了 最 大 程度 的 文件 大 小 减 
小 。 特 别 适 用 于 网 络 传输 ， 能 够 有 效 降 低 带 宽 消耗 。Zlib 拥有 广泛 的 支持 和 跨 平 
台 性 ， 方 便 调用 其 函数 和 接口 进行 文件 压缩 和 解压 缩 操作 ， 这 使 得 Zlib 成 为 进 
行 实 验 的 理想 选择 ， 以 获得 更 准确 和 全 面 的 实验 结果 。 因 此 ， 本 实验 选用 Zlib 
函数 库 ， 对 参数 进行 如 下 定义 : 压缩 前 的 文件 为 X， 压 缩 后 的 文件 为 Y。 

压缩 过 程 可 表示 为 : Y=Zlib(X) 


解压 过 程 可 表示 为 : X=Zlib(Y) 

实验 步骤 如 下 : 

1， 导 入 测试 数据 集 ; 

2. 调用 Zlib 库 壳 历 指定 目录 下 的 文件 列表 ， 对 每 个 文件 样本 进行 压缩 过 程 
Y=Zlib(X) 和 解压 缩 过 程 X=Zlib(Y)， 并 记录 压缩 比率 KK、 压缩 时 间 T、 解 压 时 间 
T、 文 件 压缩 前 大 小 a、 压 缩 后 大 小 pb 等 信息 等 性 能 指标 ; 

3. 删除 过 程 中 生成 的 压缩 文件 和 解压 缩 文件 ; 

4. 将 将 结果 记录 写 入 CSV 文件 ; 

5. Æ CSV 文件 中 计算 每 项 指标 的 平均 值 以 提高 结果 的 可 靠 性 。 


4 实验 


在 实验 中 ， 首 先 对 20 种 文件 数据 集 进 行 了 压 纵 和 解压 缩 ， 并 对 结果 进行 了 
详尽 的 分 析 。 为 了 确保 实验 结果 的 准确 性 , 在 压缩 和 解压 后 立即 删除 生成 的 文件 ， 
以 避免 占用 额外 的 存储 空间 。 本 实验 使 用 3.2 节 的 压缩 性 能 指标 作为 评价 标准 。 
4.1 实验 环境 和 工具 

本 实验 在 64 位 的 Ubuntu 22.04.2LTS 计算 机 上 进行 ,实验 环境 配置 了 32.0GIB 
的 内 存 和 1T 的 磁盘 容量 ，g++-11 编译 器 。 

4.2 实验 分 析 
(1) 全 量 数据 集 

对 全 部 20 种 不 同类 型 的 文件 数据 集 使 用 了 Zlib 库 进行 压缩 和 解压 缩 操作 ， 
并 记录 了 每 个 文件 类 型 的 压缩 时 间 解 压缩 时 间 、 解压 前 文件 大 小 、 解 压 后 文件 大 
小 、 压 缩 率 。 实 验 所 使 用 的 数据 集约 91GB 数据 ， 视 频 文 件 (AVI、MKV、MP4、 
WEBM) 约 共 54.4GB、 音 频 文件 (FLAC, MP3, WAV, WMA) 约 共 12.58GB、 
图 像 文件 (BMP, GIF, JPG, PNG, TIF) 约 共 9.65GB、 文 档 文件 (PDF, DOCX, 
XLS) 约 共 0.96GB、 文本 文件 (XML、TXT) 约 共 0.18GB、JSON 文件 约 0.85GB、 
BIN 文件 约 0.04GB。 

实验 结果 如 表 2 所 示 : 


表 2 实验 数据 结果 


压缩 前 大 小 
(MB) 


压缩 后 大 小 
(MB) 


压缩 时 间 
(MS) 


解压 时 间 
(MS) 


AVI 12748 0.52294] 0.508537 17.76 3.28 3.49% 
MKV 10350 2.105637 2.102279 54.733 6.656 0.71% 
MP4 10214 1.469854 1.463328 38.026 3.997 0.00 
WEBM 6653 1.200335 1.20309 33.938 2.162 0.1296 
FLAC 8733 0.581497 0.574143 13.019 0.963 1.93% 
MP3 8732 0.13802 0.134574 4.877 0.972 2.98% 
WAV 8733 0.774194 0.660883 30.932 5.777 14.02% 
WMA 8733 0.242912 0.109045 5.96 1.326 54.61% 
BMP 15557 0.750051 0.132008 22.156 3.6 82.40% 
GIF 7261 0.08965 0.086222 3.781 0.678 4.16% 
JPG 10547 0.089225 0.088777 2.693 0.392 0.66% 
PNG 54707 0.065476 0.065365 1.996 0.287 0.28% 


TIF 8895 0.140895 0.135055 4.835 0.981 5.00% 


PDF 2485 0.02381 0.021898 1.193 0.225 8.08% 


DOCX 2485 0.051761 0.043766 2.193 0.389 14.75% 
XLS 15121 0.052615 0.012066 2.582 0.324 77.05% 
XML 3912 0.043191 0.003706 1.129 0.19 89.51% 
TXT 7760 0.002006 0.001005 0.302 0.67 42.28% 
JSON 10628 0.080233 0.019754 1.926 0.399 68.64% 
BIN 1500 0.029862 0.003754 1.861 0.198 86.93% 


20 种 格式 的 文件 压缩 率 、 压 缩 时 间 、 解 压 时 间 对 比如 图 1 所 示 : 


MIB Compression Rate I Compression Time/MS NN 
| | 
MPA BMP TXT JSON” BIN 


图 1 20 种 文件 格式 压缩 率 、 压 缩 时 间 、 解 压 时 间 比 较 
实验 结果 表明 不 同文 件 类 型 的 压缩 率 表现 出 明显 差异 , 视频 格式 (AVI、MKYV、 
MP4、WEBM)、 音 频 格式 (FLAC、MP3)、 图 像 格式 (GIF, JPG, PNG, TIF) 
在 经 过 压缩 后 ， 其 文件 大 小 几乎 没有 明显 变化 ， 收 益 较 低 ;相反 ， 其 他 文件 类 型 
在 经 过 压缩 后 显著 减 小 ,压缩 时 间 也 较 短 ， 可 以 有 效 降 低 数据 量 。 有 具体 实验 分 析 
如 下 : 
e 1， 可 以 观察 到 不 同文 件 类 型 的 压缩 时 间 也 表现 出 明显 差异 。 例 如 ， 视 频 文 
< 件 如 : MKV 文件 (54.733 毫秒 ) 和 MP4 文件 (38.026 毫秒 ) 的 压缩 时 间 
e 较 长 ;而 文本 文件 如 :TXT 文件 (0.302 毫秒 ) 和 XML 文件 (1.129 $5) 显示 
出 较 短 的 压缩 时 间 ， 这 是 因为 视频 文件 通常 具有 较 大 的 文件 大 小 ， 而 文 
c 本 文件 通常 较 小 。 由 于 压缩 算法 需要 处 理 更 多 的 数据 块 和 复杂 的 数据 结 
© 构 ， 因 此 处 理 较 大 文件 所 需 的 时 间 相 应 较 长 。 相 比 之 下 ， 较 小 的 文本 文 
件 由 于 其 相对 简单 的 结构 ， 可 以 更 快 地 进行 压缩 处 理 。 
2， 可 以 观察 到 不 同文 件 类 型 的 解压 缩 时 间 存 在 差异 。 一 些 文件 类 型 ， 如 
MKV 文件 (6.656 毫秒 ) WAV 文件 (5.777 毫秒 ) MP4 (3.997 毫秒 ) 等 
音频 视频 文件 ， 解 压缩 时 间 相 对 较 长 。 这 是 因为 音频 视频 文件 通常 具有 
较 大 的 文件 大 小 和 更 复杂 的 解压 缩 操 作 。 解 压缩 涉及 复杂 的 解码 过 程 和 
多 个 数据 通道 的 处 理 ， 因 此 需要 较 长 的 时 间 。 而 TXT 文件 (0.067 毫秒 ) 
All XML 文件 (0.19 毫秒 ) 显示 出 较 短 的 解压 缩 时 间 ， 这 意味 着 这 些 文件 
相对 较 容 易 被 解压 缩 ， 并 且 具 有 较 快 的 解压 缩 速度 。 另 外 ， 通 过 比较 压 
缩 时 间 和 解压 缩 时 间 ， 看 到 解压 缩 时 间 通 常 略 短 于 压缩 时 间 。 这 是 因为 
解压 缩 操作 不 需要 进行 压缩 算法 的 计算 过 程 , 只 需 简 单 地 还 原 压缩 数据 ， 
因此 通常 会 更 快 地 完成 。 
3. 不 同文 件 类 型 的 压缩 率 存在 明显 差异 。 例 如 ， 目 前 人 们 针对 常用 音频 格 
式 如 MP4 文件 (0.00%), WEBM 文件 (0.12%), MKV 文件 (0.71%) 
等 已 经 进行 了 不 同 程度 的 压缩 ， 但 依然 包含 了 大 量 重复 的 元 杂 信 息 [7]， 


再 次 进行 压缩 后 的 效果 不 明显 。 而 对 于 图 像 文 件 类 型 ， BMP 图 像 文件 展 
现 出 高 达 82.40% 的 压缩 率 ， 而 IPG 和 PNG 图 像 文 件 的 压缩 率 较 低 ， 分 
别 为 0.66% 和 0.28%。 这 是 因为 BMP 图 像 文 件 本 身 没有 使 用 压缩 算法 ， 
ii JPG 和 PNG 图 像 文件 采用 了 有 损 和 无 损 压 缩 算法 ， 所 以 其 压缩 率 较 
低 。 相 反 ，XML 文件 (89.51%) 和 BIN 文件 (86.93% ) 展现 出 较 高 的 压 
缩 率 ， 这 表明 这 些 文件 类 型 在 经 过 压缩 后 能 够 显著 减 小 文件 的 大 小 。 压 
缩 率 的 差异 反映 了 不 同文 件 类 型 的 数据 特征 和 压缩 算法 的 适用 性 。 

在 结果 中 也 发 现 了 异常 情况 。 对 于 MKV, PNG 和 WEBM 这 三 种 文件 格 
式 ， 有 些 文件 压缩 后 的 文件 大 小 反而 大 于 压缩 前 。 这 是 因为 这 些 文件 格 
式 具 有 一 些 特性 ， 导 致 常规 的 压缩 算法 难以 实现 显著 的 压缩 效果 。MKV 
视频 文件 格式 通常 包含 已 经 经 过 压缩 的 音频 和 视频 轨道 ， 再 次 对 整个 文 
件 进 行 压缩 时 ， 压 缩 算法 难以 提供 额外 的 压缩 效果 ， 甚 至 可 能 使 文件 大 
小 略微 增加 。PNG 图 像 文件 格式 采用 无 损 压 缩 算 法 ， 旨 在 保留 图 像 的 精 
确 细节 和 透明 度 ， 再 次 压缩 时 可 能 产生 一 些 元 余数 据 ， 导 致 压缩 后 的 文 
件 大 小 稍 大 于 原始 文件 。WEBM 多 媒体 文件 格式 常用 于 存储 音频 和 视频 
数据 ， 并 采用 了 高 效 的 音频 编 解码 器 和 视频 编 解码 器 ， 再 次 进行 整体 压 
缩 时 可 能 无 法 获得 明显 的 额外 压缩 效果 ， 甚 至 压缩 后 的 文件 大 小 略微 增 
加 。 在 网 络 传输 中 ， 对 于 这 些 压缩 后 文件 大 小 反而 增加 且 压 缩 率 极 低 的 
文件 格式 ， 可 以 考虑 选择 不 压缩 直接 传输 的 方法 ， 以 最 大 程度 地 减少 数 
据 传输 的 时 间 和 资源 消耗 。 如 果 带 宽 充 足 、 网 络 稳定 ， 并 且 接 收 端 具备 
足够 的 处 理 能 力 ， 那 么 选择 不 压缩 传输 可 能 也 是 一 种 合理 的 决策 。 


(2) BMP 和 TXT 格式 
在 实验 中 , 进一步 选取 了 压缩 效果 显著 且 销 见 的 两 种 文件 格式 (BMP 、TXT)， 


进行 进 


一 步 的 比较 实验 。 对 于 每 一 种 文件 格式 ,选择 了 7 个 不 同文 件 大 小 的 数据 


集 [13][15-16][21-30] 进 行 解压 缩 操 作 ， 并 准确 记录 了 解压 缩 前 后 文件 大 小 、 解 压 
缩 时 间 、 压 缩 率 等 ， 以 全 面 评估 压缩 收益 。 
本 次 实验 所 使 用 的 BMP 数据 集 大 小 约 13.58GB,TXT 数据 集 大 小 约 0.23GB。 


实验 数据 结果 如 表 3 所 示 : 
表 3 实验 数据 结果 
参数 数量 ”压缩 前 大 小 ”压缩 后 大 ”压缩 时 间 解压 时 间 压缩 率 
(个 ) (MB) 小 (MB) (MS) (MS) (%) 
BMP 11686 0.000433 0.000128 0.000154 0.000043 70.44% 
BMP 6688 0.01086 0.008109 0.00098 0.000186 58.89% 
BMP 15557 0.019508 0.009805 0.001205 0.000188 60.97% 
BMP 4049 0.138848 0.102942 0.007094 0.001295 24.48% 
BMP 5513 0.148127 0.110608 0.006324 0.001205 25.33% 
BMP 15114 0.65723 0.060739 0.011658 0.003121 90.38% 
BMP 18971 0.750051 0.132008 0.022156 0.0036 82.40% 
TXT 4394 0.000151 0.000084 0.000184 0.000055 44.1196 
TT 2584 0.001119 0.000565 0.000268 0.00006 49.16% 
TXT 7760 0.002006 0.001005 0.000302 0.000067 42.28% 
TXT 2000 0.003809 0.001796 0.000441 0.000092 50.57% 
TXT 19827 0.003972 0.001558 0.000397 0.000078 58.99% 
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TXT 17561 0.006567 0.002865 0.000473 0.000092 42.27% 
TXT 1468 0.01357 0.004375 0.000879 0.000154 67.80% 


BMP oa Enns cll 2 所 示 : 
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E 2. 1 图 
图 2. 1 显示 了 BMP 格式 文件 的 解压 时 间 比 较 , 图 2. 2 显示 了 TXT 格式 文件 

的 解压 时 间 比 较 。 
BMP 格式 的 文件 压缩 率 如 图 3 所 示 : 


3.1 图 3.2 
3.1 显示 了 BMP 格式 文件 的 压缩 率 , 图 3.2 显示 了 TXT 格式 文件 的 压缩 


对 于 BMP 图 像 文件 格式 和 TXT 文本 格式 ,不同 大 小 的 文件 进行 压缩 和 解压 

缩 操 作 , 压缩 率 在 不 同 数量 级 的 文件 中 也 存在 差异 。 
(3) HDF5 和 NetCDF 格式 

海量 数据 传输 对 于 高 性 能 计算 也 具有 实践 意义 , 实验 选择 两 种 高 性 能 计算 文 
件 格 式 (HDFS 和 NetCDF) 进行 压缩 实验 。 本 次 实验 所 用 到 的 数据 集 [39-53] 大 
小 约 共 87GB, X, HDF5 文件 约 51GB，NetCDF 文件 约 36GB. 。 实 验 中 准确 
记录 了 解压 缩 前 后 文件 大 小 、 解 压缩 时 间 以 及 压缩 率 等 指标 ， 以 便 深 入 了 解 这 些 
文件 格式 在 数据 传输 中 的 性 能 表现 。 

HDFS (Hierarchical Data Format 5) 在 科学 研究 、 数 据 分 析 、 高 性 能 计算 和 可 
视 化 等 领域 得 到 广泛 应 用 。 被 用 于 存储 和 共享 大 规模 的 实验 数据 、 模 拟 结果 、 图 
像 数 据 、 遥 感 数据 等 。HDF5 格式 文件 解压 缩 时 间 分 析 如 图 4 所 示 : 


60MB 427MB 168 36B 86B 2668 


图 4. 1 显示 了 HDF5 格式 文件 的 解压 时 间 和 压缩 率 的 比较 ， 图 4.2 显示 了 
HDFS 格式 文件 的 压缩 率 。 

随 着 HDF5 格式 文件 大 小 的 增加 ， 其 解压 缩 时 间 呈 现 逐 渐 增 长 的 特征 。 大 型 
文件 的 解压 缩 过 程 涉 及 到 更 为 繁重 的 计算 任务 和 资源 要 求 , 随 着 文件 规模 的 扩大 ， 
解压 缩 操作 所 需 的 计算 资源 也 随 之 增加 。 由 于 需要 处 理 更 大 量 的 数据 ,， 解 压缩 算 
法 在 执行 阶段 必须 执行 更 多 的 计算 操作 ， 这 必然 导致 了 解压 缩 时 间 的 增加 。 

NetCDF (Network Common Data Form ) 是 一 种 用 于 存储 、 访 问 和 共享 科学 数 


NetCDF 
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图 5.1 图 5.2 

图 5. 1 是 NetCDF 格式 文件 的 解压 时 间 和 压缩 率 的 比较 ， 图 5.2 是 NetCDF 
格式 文件 的 压缩 率 。 

NetCDF 格式 文件 的 解压 缩 时 间 通 常 随 着 文件 大 小 的 增加 而 增加 。 大 型 
NetCDF 文件 的 解压 缩 过 程 涉 及 更 多 的 磁盘 读 取 操 作 和 计算 操作 ， 较 大 的 文件 需 
要 更 长 的 时 间 来 从 硬盘 中 读 取 数据 ， 这 会 增加 解压 缩 的 总 体 时 间 。 此 外 ， 解 压缩 
算法 在 处 理 更 多 数据 时 可 能 需要 更 多 的 计算 操作 和 内 存 资源 , 这 也 ”会 导致 解压 
缩 时 间 的 增加 。 


5 结论 


5.1 本 实验 的 结论 如 下 : 

通过 本 实验 发 现 , 不 同类 型 的 文件 格式 在 压缩 性 能 上 有 明显 的 差异 ， 有 不 同 
的 收益 。 有 些 文 件 格式 的 压缩 率 较 高 ， 压 缩 效 果 明 显 ， 而 有 些 文件 格式 的 压缩 效 
果 较 低 。 对 于 已 经 压缩 过 的 文件 格式 〈 如 IPG. MP3 等 )， 由 于 内 部 使 用 了 特定 
的 压缩 算法 ， 可 能 会 导致 信息 丢失 和 重复 压缩 ， 因 此 重新 压缩 效果 不 佳 。 另 一 方 
面 ， 未 经 压缩 的 文件 格式 ， 如 文本 文件 和 无 损 图 像 文件 〈 如 TXT、BMP )， 往 往 
表现 出 高 压缩 率 和 显著 的 压缩 效果 。 这 是 因为 这 些 文件 格式 有 很 高 的 元 余 度 和 可 
压缩 性 ， 通 过 压缩 可 以 有 效 地 减少 文件 大 小 。 

5. 2 未 来 展望 : 

本 研究 主要 是 对 不 同文 件 格式 的 压缩 性 能 进行 分 析 , 但 没有 深入 研究 压缩 算 
法 和 优化 方法 的 细节 。 未 来 的 研究 可 以 集中 在 改进 和 优化 现 有 的 压缩 算法 ， 以 提 
高 压缩 和 解压 速度 ， 同 时 保持 良好 的 压缩 质量 。 
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